|
|
Registro Completo |
Biblioteca(s): |
Embrapa Agricultura Digital. |
Data corrente: |
12/04/2011 |
Data da última atualização: |
12/04/2011 |
Tipo da produção científica: |
Boletim de Pesquisa e Desenvolvimento |
Autoria: |
MOURA, M. F.; NOGUEIRA, B. M.; CONRADO, M. da S.; SANTOS, F. F. dos; REZENDE, S. O. |
Afiliação: |
MARIA FERNANDA MOURA, CNPTIA; BRUNO MAGALHÃES NOGUEIRA, USP; MERLEY DA SILVA CONRADO, USP; FABIANO FERNADES DOS SANTOS, ICMC/USP; SOLANGE OLIVEIRA REZENDE, ICMC/USP. |
Título: |
Um modelo para a seleção de n-gramas significativos e não redundantes em tarefas de mineração de textos. |
Ano de publicação: |
2010 |
Fonte/Imprenta: |
Campinas: Embrapa Informática Agropecuária, 2010. |
Páginas: |
37 p. il. |
Série: |
(Embrapa Informática Agropecuária. Boletim de pesquisa e desenvolvimento, 23). |
Idioma: |
Português |
Conteúdo: |
Uma proposta completa para resolver o problema de selecionar automaticamente atributos não redundantes do tipo n-gramas é apresentada neste trabalho. Geralmente, o uso de n-gramas é um requisito para melhorar a interpretação subjetiva dos resultados em tarefas de mineração de textos, nesses casos, eles são estatisticamente gerados e selecionados. Após a seleção, em geral, há a presença de redundâncias, por exemplo, o termo "informática agropecuária" e seus componentes "informática" e "agropecuária". Assim, propõe-se um modelo que envolve a remoção de stopwords estatisticamente identificadas, uma seleção estatística eficiente para os atributos do tipo n-grama e a remoção das redundâncias apresentadas após a seleção. Observa-se, pelos resultados experimentais apresentados, sobre os atributos originais e os atributos sem as redundâncias, que, como esperado, após a eliminação das redundâncias não há perda de representatividade. Além disso, a redução no número de atributos é expressiva, o que pode significar ganhos em desempenho nas tarefas de extração de padrões, bem como na interpretabilidade subjetiva dos resultados. Deve-se salientar que o método proposto é útil a qualquer algoritmo de aprendizado de máquina aplicado a uma tarefa de mineração de textos, e, parece ser igualmente aplicável a textos em quaisquer línguas. |
Palavras-Chave: |
Atributos redundantes; Attribute selection; Categorical data; Dados categorizados; Mineração de textos; N-gramas; N-grams; Recuperação da informação; Redundant attribute; Seleção de atributos; Text mining. |
Thesaurus Nal: |
Information retrieval. |
Categoria do assunto: |
X Pesquisa, Tecnologia e Engenharia |
URL: |
https://ainfo.cnptia.embrapa.br/digital/bitstream/item/32458/1/BolPesq23.pdf
|
Marc: |
LEADER 02446nam a2200325 a 4500 001 1885611 005 2011-04-12 008 2010 bl uuuu u0uu1 u #d 100 1 $aMOURA, M. F. 245 $aUm modelo para a seleção de n-gramas significativos e não redundantes em tarefas de mineração de textos.$h[electronic resource] 260 $aCampinas: Embrapa Informática Agropecuária$c2010 300 $a37 p. il. 490 $a(Embrapa Informática Agropecuária. Boletim de pesquisa e desenvolvimento, 23). 520 $aUma proposta completa para resolver o problema de selecionar automaticamente atributos não redundantes do tipo n-gramas é apresentada neste trabalho. Geralmente, o uso de n-gramas é um requisito para melhorar a interpretação subjetiva dos resultados em tarefas de mineração de textos, nesses casos, eles são estatisticamente gerados e selecionados. Após a seleção, em geral, há a presença de redundâncias, por exemplo, o termo "informática agropecuária" e seus componentes "informática" e "agropecuária". Assim, propõe-se um modelo que envolve a remoção de stopwords estatisticamente identificadas, uma seleção estatística eficiente para os atributos do tipo n-grama e a remoção das redundâncias apresentadas após a seleção. Observa-se, pelos resultados experimentais apresentados, sobre os atributos originais e os atributos sem as redundâncias, que, como esperado, após a eliminação das redundâncias não há perda de representatividade. Além disso, a redução no número de atributos é expressiva, o que pode significar ganhos em desempenho nas tarefas de extração de padrões, bem como na interpretabilidade subjetiva dos resultados. Deve-se salientar que o método proposto é útil a qualquer algoritmo de aprendizado de máquina aplicado a uma tarefa de mineração de textos, e, parece ser igualmente aplicável a textos em quaisquer línguas. 650 $aInformation retrieval 653 $aAtributos redundantes 653 $aAttribute selection 653 $aCategorical data 653 $aDados categorizados 653 $aMineração de textos 653 $aN-gramas 653 $aN-grams 653 $aRecuperação da informação 653 $aRedundant attribute 653 $aSeleção de atributos 653 $aText mining 700 1 $aNOGUEIRA, B. M. 700 1 $aCONRADO, M. da S. 700 1 $aSANTOS, F. F. dos 700 1 $aREZENDE, S. O.
Download
Esconder MarcMostrar Marc Completo |
Registro original: |
Embrapa Agricultura Digital (CNPTIA) |
|
Biblioteca |
ID |
Origem |
Tipo/Formato |
Classificação |
Cutter |
Registro |
Volume |
Status |
URL |
Voltar
|
|
Registros recuperados : 20 | |
9. | | KURASZ, G.; FASOLO, P. J.; POTTER, R. O.; DLUGOSZ, F. L.; GEBAUER, E.; ROSOT, M. A. D.; OLIVEIRA, Y. M. M. de. Levantamento semidetalhado de solos para atualização de legenda na reserva florestal Embrapa/Epagri de Caçador-SC. In: EVENTO DE INICIAÇÃO CIENTÍFICA DA EMBRAPA FLORESTAS, 3., 2004, Colombo. Anais. Colombo: Embrapa Florestas, 2004. 1 CD-ROM. (Embrapa Florestas. Documentos, 102). Resumo.Tipo: Resumo em Anais de Congresso |
Biblioteca(s): Embrapa Florestas. |
| |
12. | | OLIVEIRA, Y. M. M. de; ROSOT, M. A. D.; DLUGOSZ, F.; KURASZ, G.; ZONTA, M. Planos de manejo em áreas florestais protegidas com ênfase às unidades localizadas no Sul do Brasil. In: SEMANA DO ESTUDANTE UNIVERSITÁRO, 1., 2003, Colombo. Florestas e Meio Ambiente: palestras. Colombo: Embrapa Florestas, 2003. 1 CD-ROM. (Embrapa Florestas. Documentos, 88). Organizado por Patricia Póvoa de Mattos, Luciane Cristine Jaques e Katia Regina Pichelli.Biblioteca(s): Embrapa Florestas. |
| |
18. | | KURASZ, G.; DLUGOSZ, F. L.; ROSOT, N. C.; ROSOT, M. A. D.; OLIVEIRA, Y. M. M. de. Uso de técnicas de geoprocessamento e levantamento topográfico na regularização fundiária da Embrapa Florestas. In: SEMINÁRIO DE PESQUISA, 15; SEMANA DE INICIAÇÃO CIENTÍFICA, 10., Guarapuava, 2003. [Resumos]. Guarapuava: UNICENTRO, 2003.Biblioteca(s): Embrapa Florestas. |
| |
19. | | DLUGOSZ, F. L.; ROSOT, N. C.; ROSOT, M. A. D.; OLIVEIRA, Y. M. M. de; GARRASTAZU, M. C. Uso do levantamento aéreo expedito convencional e digital para o monitoramento da cobertura florestal no Paraná: estado da arte e potencialidades. Pesquisa Florestal Brasileira, Colombo, v. 30, n. 63, p. 245-252, ago./out. 2010. Artigo de revisão.Tipo: Artigo em Periódico Indexado | Circulação/Nível: B - 4 |
Biblioteca(s): Embrapa Florestas. |
| |
20. | | DLUGOSZ, F. L.; ROSOT, M. A. D.; ROSOT, N. C.; OLIVEIRA, Y. M. M.; KURASZ, G. Uso do sensoriamento remoto e SIG para o zoneamento ecológico da reserva florestal Embrapa/Epagri em Caçador - SC. In: EVENTO DE INICIAÇÃO CIENTÍFICA DA EMBRAPA FLORESTAS, 2., 2003, Colombo. Anais. Colombo: Embrapa Florestas, 2003. 047A. 1 Cd-Rom. (Embrapa Florestas. Documentos, 86). Organizado por Patricia Póvoa de Mattos, Celso Garcia Auer, Rejane Stumpf Sberze, Katia Regina Pichelli e Paulo César Botosso.Tipo: Resumo em Anais de Congresso |
Biblioteca(s): Embrapa Florestas. |
| |
Registros recuperados : 20 | |
|
Nenhum registro encontrado para a expressão de busca informada. |
|
|